视听扬声器日复速度旨在检测使用听觉和视觉信号时的``谁说话。现有的视听深度数据集主要专注于会议室或新闻工作室等室内环境,这些工作室与电影,纪录片和观众情景喜剧等许多情景中的野外视频完全不同。要创建一个能够有效地比较野外视频的日复速度方法的测试平台,我们向AVA电影数据集注释说话者深度标签,并创建一个名为AVA-AVD的新基准。由于不同的场景,复杂的声学条件和完全偏离屏幕扬声器,该基准是挑战。然而,如何处理偏离屏幕和屏幕上的扬声器仍然是一个关键挑战。为了克服它,我们提出了一种新的视听关系网络(AVR-Net),它引入了有效的模态掩模,以基于可见性捕获辨别信息。实验表明,我们的方法不仅可以优于最先进的方法,而且可以更加强大,因为改变屏幕扬声器的比率。消融研究证明了拟议的AVR-NET和尤其是日复一化的模态掩模的优点。我们的数据和代码将公开可用。
translated by 谷歌翻译
Face forgery detection plays an important role in personal privacy and social security. With the development of adversarial generative models, high-quality forgery images become more and more indistinguishable from real to humans. Existing methods always regard as forgery detection task as the common binary or multi-label classification, and ignore exploring diverse multi-modality forgery image types, e.g. visible light spectrum and near-infrared scenarios. In this paper, we propose a novel Hierarchical Forgery Classifier for Multi-modality Face Forgery Detection (HFC-MFFD), which could effectively learn robust patches-based hybrid domain representation to enhance forgery authentication in multiple-modality scenarios. The local spatial hybrid domain feature module is designed to explore strong discriminative forgery clues both in the image and frequency domain in local distinct face regions. Furthermore, the specific hierarchical face forgery classifier is proposed to alleviate the class imbalance problem and further boost detection performance. Experimental results on representative multi-modality face forgery datasets demonstrate the superior performance of the proposed HFC-MFFD compared with state-of-the-art algorithms. The source code and models are publicly available at https://github.com/EdWhites/HFC-MFFD.
translated by 谷歌翻译
Backdoor attacks represent one of the major threats to machine learning models. Various efforts have been made to mitigate backdoors. However, existing defenses have become increasingly complex and often require high computational resources or may also jeopardize models' utility. In this work, we show that fine-tuning, one of the most common and easy-to-adopt machine learning training operations, can effectively remove backdoors from machine learning models while maintaining high model utility. Extensive experiments over three machine learning paradigms show that fine-tuning and our newly proposed super-fine-tuning achieve strong defense performance. Furthermore, we coin a new term, namely backdoor sequela, to measure the changes in model vulnerabilities to other attacks before and after the backdoor has been removed. Empirical evaluation shows that, compared to other defense methods, super-fine-tuning leaves limited backdoor sequela. We hope our results can help machine learning model owners better protect their models from backdoor threats. Also, it calls for the design of more advanced attacks in order to comprehensively assess machine learning models' backdoor vulnerabilities.
translated by 谷歌翻译
Zero-sum Markov Games (MGs) has been an efficient framework for multi-agent systems and robust control, wherein a minimax problem is constructed to solve the equilibrium policies. At present, this formulation is well studied under tabular settings wherein the maximum operator is primarily and exactly solved to calculate the worst-case value function. However, it is non-trivial to extend such methods to handle complex tasks, as finding the maximum over large-scale action spaces is usually cumbersome. In this paper, we propose the smoothing policy iteration (SPI) algorithm to solve the zero-sum MGs approximately, where the maximum operator is replaced by the weighted LogSumExp (WLSE) function to obtain the nearly optimal equilibrium policies. Specially, the adversarial policy is served as the weight function to enable an efficient sampling over action spaces.We also prove the convergence of SPI and analyze its approximation error in $\infty -$norm based on the contraction mapping theorem. Besides, we propose a model-based algorithm called Smooth adversarial Actor-critic (SaAC) by extending SPI with the function approximations. The target value related to WLSE function is evaluated by the sampled trajectories and then mean square error is constructed to optimize the value function, and the gradient-ascent-descent methods are adopted to optimize the protagonist and adversarial policies jointly. In addition, we incorporate the reparameterization technique in model-based gradient back-propagation to prevent the gradient vanishing due to sampling from the stochastic policies. We verify our algorithm in both tabular and function approximation settings. Results show that SPI can approximate the worst-case value function with a high accuracy and SaAC can stabilize the training process and improve the adversarial robustness in a large margin.
translated by 谷歌翻译
作为第一个会话级的中文数据集,Chase包含两个单独的部分,即从Scratch(Chase-C)手动构建的2,003个会话,以及从英语SPARC(Chase-T)翻译的3,456个会话。我们发现这两个部分是高度差异,并且作为培训和评估数据不兼容。在这项工作中,我们介绍了SESQL,这是中文的另一个大规模会话级文本到SQL数据集,由5,028个会话组成,所有课程都是从Scratch手动构建的。为了保证数据质量,我们采用迭代注释工作流程,以促进对先前的自然语言(NL)问题和SQL查询的紧张和及时审查。此外,通过完成所有与上下文有关的NL问题,我们获得了27,012个独立的问题/SQL对,允许SESQL用作单轮多DB文本到SQL解析的最大数据集。我们通过使用三个竞争性会话级解析器,并提供详细的分析,对SESQL进行基准测试级文本到SQL解析实验。
translated by 谷歌翻译
我们从完全不同的角度解决了不足的α效果问题。给定输入肖像图像,而不是估计相应的alpha哑光,我们专注于另一端,以巧妙地增强此输入,从而可以通过任何现有的均值模型轻松估算α哑光。这是通过探索GAN模型的潜在空间来完成的。可以证明可以在潜在空间中找到可解释的方向,它们对应于语义图像转换。我们在Alpha Matting中进一步探索了此属性。特别是,我们将输入肖像倒入StyleGan的潜在代码中,我们的目的是发现潜在空间中是否有增强版本,该版本与参考垫模型更兼容。我们在四个量身定制的损失下优化了潜在空间中的多尺度潜在媒介,从而确保了肖像画上的底漆特异性和微妙的修改。我们证明了所提出的方法可以为任意床上模型完善真实的肖像图像,从而使自动alpha matting的性能较大。此外,我们还利用了Stylegan的生成性能,并建议生成可以将其视为伪GT的增强的肖像数据。它解决了昂贵的Alpha Matte注释的问题,进一步增强了现有模型的底漆性能。代码可在〜\ url {https://github.com/cnnlstm/stylegan_matting}中获得。
translated by 谷歌翻译
Graph神经体系结构搜索(Graphnas)最近引起了学术界和工业的关注。但是,两个主要挑战严重阻碍了对石墨的进一步研究。首先,由于实验环境没有共识,因此不同研究论文中的经验结果通常是不可比服的,甚至不可再现,从而导致不公平的比较。其次,石墨通常需要进行广泛的计算,这使得研究人员无法访问大规模计算,这使其高效且无法访问。为了解决这些挑战,我们提出了NAS Bench-Graph,这是一种量身定制的基准测试,该基准支持统一,可重现和有效的Gragennas评估。具体而言,我们构建了一个统一,表现力但紧凑的搜索空间,涵盖26,206个独特的图形神经网络(GNN)体系结构,并提出了原则评估协议。为了避免不必要的重复培训,我们已经在九个代表性的图形数据集上培训和评估了所有这些架构,记录了详细的指标,包括火车,验证和测试性能,每个时期,延迟,参数数量等。基准测试,可以通过查找表直接获得GNN体系结构的性能,而无需任何进一步的计算,这可以实现公平,完全可重现和有效的比较。为了证明其使用情况,我们对我们提出的NAS基础图表进行了深入的分析,从而揭示了一些有关Graphnas的有趣发现。我们还展示了如何轻松地与诸如autogl和nni之类的诸如AutoGL和NNI之类的Graphnas开放库兼容。据我们所知,我们的工作是图形神经架构搜索的第一个基准。
translated by 谷歌翻译
在本文中,我们研究了在非全粒图上进行节点表示学习的自我监督学习的问题。现有的自我监督学习方法通​​常假定该图是同质的,其中链接的节点通常属于同一类或具有相似的特征。但是,这种同质性的假设在现实图表中并不总是正确的。我们通过为图神经网络开发脱钩的自我监督学习(DSSL)框架来解决这个问题。 DSSL模仿了节点的生成过程和语义结构的潜在变量建模的链接,该过程将不同邻域之间的不同基础语义解散到自我监督的节点学习过程中。我们的DSSL框架对编码器不可知,不需要预制的增强,因此对不同的图表灵活。为了通过潜在变量有效地优化框架,我们得出了自我监督目标的较低范围的证据,并开发了具有变异推理的可扩展培训算法。我们提供理论分析,以证明DSSL享有更好的下游性能。与竞争性的自我监督学习基线相比,对各种类图基准的广泛实验表明,我们提出的框架可以显着取得更好的性能。
translated by 谷歌翻译
几何深度学习,即设计神经网络以处理诸如点云和图形的无处不在的几何数据,在过去十年中取得了巨大的成功。一个关键的归纳偏差是该模型可以维持朝向各种变换的不变性,例如翻译,旋转和缩放。现有的图形神经网络(GNN)方法只能维持置换不变性,不能保证与其他转换的不变性。除了GNN,其他作品设计复杂的变换不变层,这些层是计算昂贵且难以扩展的。为了解决这个问题,我们重新审视为什么在处理几何数据时,现有的神经网络无法维持转换不变性。我们的研究结果表明,变换不变和距离保持距离初始表示足以实现变换不变性,而不是需要复杂的神经层设计。通过这些发现,我们提出了转型不变神经网络(TINVNN),是几何数据的直接和一般框架。具体地,我们通过在将表示形式馈送到神经网络之前来实现通过修改多维缩放来实现转换不变和距离保留初始点表示。我们证明Tinvnn可以严格保证转型不变性,一般而灵活,足以与现有的神经网络相结合。广泛的实验结果对点云分析和组合优化展示了我们提出的方法的有效性和一般适用性。基于实验结果,我们倡导Tinvnn应该被视为新的起点和基本基准,以进一步研究转型不变几何深度学习。
translated by 谷歌翻译
城市地区的车辆移动性优化是智能城市和空间数据分析中的长期问题。鉴于复杂的城市情景和不可预测的社交活动,我们的工作侧重于开发移动顺序推荐系统,以最大限度地提高车辆服务提供商的盈利能力(例如,出租车司机)。特别是,我们将动态路由优化问题视为长期连续决策任务。提出了一种加强学习框架来解决这个问题,通过整合自检机制和深度神经网络进行客户拾取点监控。要考虑意外情况(例如,Covid-19爆发),我们的方法旨在通过自适应参数确定机制来处理相关的环境变化。根据Covid-19爆发前后的纽约市和附近的黄色出租车数据,我们进行了全面的实验,以评估我们方法的有效性。结果表明,从每小时到每周措施的结果表明,通过最先进的方法支持我们的方法的优越性(即,在出租车司机的盈利能力方面有超过98%的提高)。
translated by 谷歌翻译